- [KA1] Es ist machbar, dass Plug-ins für sie semantisch zu ungenaue Inhalte herausfiltern.
- +1+1+1
- -1-1 (könnt ihr das begründen bzw. noch besser: Beispiele nennen?)
- +-0, das bürdet den Plugins viel zusätzliche Arbeit auf. Die meisten Plugins werden strukturierte Diskussionen unerschiedlich abbilden wollen und unstrukturierte Infos ignorieren -> man lässt sie besser gleich weg. Andererseits wird es immer Plugins geben die schlecht/gar nicht/anders strukturieren. Eine Filterung ist auf lange Sicht also unumgänglich.+1
- empfinde ich als guten Kompromiss - also hohe Priorität auf einfache Filtermöglichkeiten für die Plugins?+1
- -1 Das geht nur dann, wenn alle integrierten Diskussionssysteme den Inhalt blocken; wenn nur ein einziges durchschaltet, spült es die Inhalte in den Kreislauf der Diskussionssysteme rein, die von den anderen integrierten Diskussionssystemen unerwünscht sind
- Auch das integrierende Diskussionssystem kann dazu beitragen die 'Qualität' der importierten Daten zu erhöhen. Das ist das Ziel. Tut es das nicht, sondern leitet die qualitativ niederwertigen Diskussionsdaten einfach nur durch, dann wird es bald auch einen Filter der anderen Tools auf das 'einschleusende' Tool geben.
- Klar, das passiert auch informell - beispielsweise spontanes Copy & paste aus seinen eigenen E-Mails und Tweets raus - das gehört aber nicht strukturell auch noch gefördert
- Ein "Durchspülen" schlechter Daten kann im Normalfall nicht vorkommen:
- Wenn das Problem der unstrukturierten Daten in fehlender Struktur (= Semantik) liegt, dann wird das Problem doch durch Hinzufügen dieser Semantik gelöst.
- Verschiedene Plugins benötigen unterschiedlich viel von der Semantik.
- Ja. Jedes System nutzt die Inhalte, die seinen Semantikstandards entsprechen. Das verstehe ich unter "Filtern".
- Die Frage ist halt wo und anhand welcher Merkmale gefiltert wird. mMn sollte das Plugin nicht die Volle Datenmenge abkriegen, wenn es schon weiß, dass nur 2 bestimmte Plattformen interessant sind.
- 1. bin ich auch dafür, dass der Server, der die Daten speichert, umfangreiche Filterfunktionen hat [KA11].+1
- 2. Das wäre wie gesagt ein Spezialfall, auch wenn es doch eigentlich sinnvoller wäre, Posts nach ihrer Semantik (ihren sicheren, bekannten Merkmalen) statt nach ihrer Herkunft zu beurteilen.
- In der Theorie ja, aber praktisch halte ich das für zu optimistisch. Es wird immer Grauzonen geben in der Ontologie oder ihrer Verwendung.+1
- Was gefiltert wird, ist ja sowieso den Tools überlassen - es ist natürlich schon sinnvoll, immer noch die "Notbremse" Herkunft in der Tasche zu haben. Hast da Recht.
- Ohne Herkunftsfilter von Anfang an reicht ein einziges Plugin das Twitter rüberleitet dür einen kompletten d!sco DOS.
- Siehe 1.: Der Server, der die Daten speichert, zumindest im P2P wäre das hier Twitter, muss die Daten auch filtern. Höchstens dieser wird einen DOS erleben. Weil Twitter recht wenig Semantik hat, würden die Inhalte oft herausgefiltert. So gibt es in Twitter keine Topics. (Unsere Diskussion können wir ja später wieder löschen ;) (+1) )
- Die Inhalte müssen aber erstmal bis zum Filter kommen.
- Nein! Das Plugin sagt dem Server (hier Twitter), was dieser filtern soll, und der tut es. So grob. In Wirklichkeit brauchen wir ein Protokoll.
- Achso du meinst schon dass jedes Plugin nen Server hat? Nur wer von Twitter Daten anfordert kann überhaupt den Schwall kriegen?
- Sogar nur der, der von Twitter Daten ohne Filterung anfordert. (Wir können natürlich auch Plattformen auf unserem Server hosten, aber müssen nicht die dort reinlassen, die uns zu viel Daten produzieren. Die brauchen dann halt nen eigenen Server.)
- Ader das impliziert doch schon die von mir geforderte Filterung nach Herkunft? Also wenn es nicht auf unseren Server kommt.
- Nö: Im P2P hast du zunächst mal Kontakt zu allen Servern, die nicht geblacklistet wurden. An alle diese Server schickst du die gleiche Filterabfrage.
- Dann schicke ich halt nur an 2, statt an alle?
- Kannst du, wenn du willst, aber ich persönlich würde für ein offenes d!sco mein Plugin per Opt-out mit den anderen Plugins verbinden.
- Wäre mir zu riskant, da ich die Daten ja automatisch in die eigene Datenbank übernehme (evtl. nach Aufbereitung) Das wird lustig aufzuräumen ;-)
- Aber mir reicht ja, dass ich die Möglichkeit habe nur 2 zu fragen. Mehr wollte ich gar nicht ^^
- Nein, du musst sie nicht übernehmen. Ich dachte, dass du die Daten von den Datenbanken der entsprechenden Server abfragst und nicht bei dir speicherst. Wenn du also einen Server blacklistest, dann verschwinden "rückwirkend" alle Inhalte dessen. (Kannst du auf deinem Server natürlich auch anders machen.)
- Ah jetzt verstehe ich die Grundlage des Missverständnisses. Solange die Plugins nur einen reinen View anbieten ist das natürlich kein Problem.
- Was meinst du mit View?Na dass das Plugin die Daten von den Anderen Servern quasi live anzeigt ohne eine Eigene Datenbank damit zu füllen. correcto :) Kommunikation ist was Kompliziertes...
- Nun ich gehe davon aus, dass ich eine eigene Datenbank brauchen werde für allerlei Bonusinfos. ;-)
- Also Daten, die nur dein System braucht?Genau, und wenn ich die für die komplette Twitter Datenbank anlege hab ich ein Problem... sogar wenn es nur temporär ist.
- Stimmt auf den ersten Blick. Aber du wirst doch nur Datensätze für Twitter-Posts anlegen, die du nicht herausgefiltert hat. Was ja, wie gesagt, die Datenmenge beschränken könnte.
- Auch wenn ich die komlette Twitter Datenbank filtern will habe ich ein Problem. Das macht doch Twitter für dich! [KA11]
- Semantisch ja ... Inhaltlich nein. Und semantisch ist nicht viel Unterschied zwischen Twitter Posts.
- Twitter-Posts haben wenig Semantik, so zum Beispiel kein zugeordnetes Topic.Jup Das ist hier das Kriterium. Würde ich sagen.
- Also habe ich gar keine Chance Twitter als Datenquelle zu nutzen. Entweder sind die Posts alle rausgefiltert (kein Topic z.B.) Oder mein Server stirbt ;)
- Oh, stimmt auch. Aber meistens liegt's ja dazwischen. Wenn dir die Twitterdaten alle zu roh sind, ist's doch super, dass sie nicht durch den Filter kommen. Und sonst, wenn sie zu deiner Plattform passen (auch Kriterien wie "ist Antwort auf anderen Post" oder "hat Länge unter 1000 Zeichen" ist eine Filtermöglichkeit), kannst du dich über so viele passende Beiträge freuen :o) Trifft auf die hälfte von Twitter ;)^^
- Ich denke das Problem ist, dass die Twitter Problematik auf alle Unstrukturierten Quellen zutrifft. Also würde ich die alle rausfiltern oder nen Serverzusammenbruch haben.
- Aber so wird es doch bleiben: Plattformen sollen sich nicht an d!sco anpassen. Also liegt es an den Toolentwicklern zu entscheiden, was die Kriterien für die Posts sind. Hier wird's sicher auch eine Evolution (sry) geben. Kann sein, dass Twitter dann isoliert dasteht :-D:D, aber es wurde nicht technisch von d!sco ausgeschlossen. Vielleicht baut es, wenn es besser integriert werden will, ja ein bisschen Semantik ein...
- Damit ist Twitter doch defacto technisch ausgeschlossen. Niemand kann es als Datenquelle nutzen, außer sein Server ist auch so gewaltig.
- Mit technisch meinte ich, dass es von uns automatisch nicht auf d!sco zugreifen kann. Die genannte Methode würde Plattformen nicht willkürlich ausschließen, sondern dann, wenn sie von allen anderen Entwicklern als unbrauchbar gesehen werden. (Es reicht ein Tool, das Semantik anfügt.)
- Jippieh, wir kommen uns näher...
- Also wenn man konsequent ein Interface definieren würde und auf die zentrale Datenbank (egal ob P2P) verzichtet dann könnte man twitter nach allen "posts" fragen die "Pirat" enthalten udn Antwort auf irgendwas sind.
- So zum Beispiel. Wenn Twitter an der Teilnahme an d!sco interessiert ist und die Filtermöglichkeiten zur Verfügung stellt - sich also nicht selbst abschottet.
- Das könnte ja problemlos ein dritter machen, Twitter API sit verfügbar.
- Stimmt, gute Idee - er müsste halt die Datenmengen in Kauf nehmen (außer, die Filtermöglichkeiten sind in der API vorhanden)
- Kann er halt nciht all d!sco Filter anbieten.
- Stimmt. Dann werden die Inhalte eben nur von Plattformen angezeigt, die die fehlenden Filter nicht brauchen.
- Sind wir uns einig?
- Hmmm bin mir noch nciht so sicher wie du dir vorstellst, dass die Anfragen an alle geschickt werden.
- Du hast 'ne Liste mit allen Servern, die dir bekannt sind (abzüglich den geblacklisteten) und schickst die Anfrage an alle die.
- Ok dachte ich schick sie ans P2P oder an unseren d!sco server und der verteilt dann. Solange ich selber an beliebige Server was schicken kann bin ich wie gesagt völlig zufrieden :-D Ich auch :-D Freiheit...
- Also wenn, dann interessieren einen doch ohnehin nur seine eigenen Posts; wenn alles von Twitter zu Thema X abgezogen wird, würde in d!sco praktisch jeder nur nach seinen eigenen Posts suchen; wo ist da die Verhältnismäßigkeit Datenmenge-Nutzen ?
- Ich erwarte eher, dass ein zusammenhängender Diskussionsstrang von Twitter ins Tool importiert werden soll. Auch hier ist natürlich sehr viel weniger als die gesamte Twitter Datenbasis interessant.
- Sehe beim Twitter Beispiel keine automatische Möglichkeit => Copy&Paste wäre hier besser.